AI는 어떻게 성격을 갖게 되는가

학습 내용

예상 소요 시간: 25분

이 레슨을 마치면 다음을 할 수 있습니다:

  • 생성형 AI의 두 단계 학습 과정(사전 학습과 파인튜닝)을 쉬운 말로 설명할 수 있습니다
  • 각 단계가 남기는 행동적 흔적을 파악할 수 있습니다: 아첨(sycophancy), 장황함(verbosity), 과도한 신중함(over-caution), 느슨한 신뢰도 보정(loose confidence calibration)
  • 이 이해를 바탕으로 실제 AI 상호작용에서 나타나는 행동을 해석할 수 있습니다

사전 학습, 파인튜닝, 그리고 이들이 남기는 흔적

AI는 어떻게 성격을 갖게 되는가

두 단계의 학습 과정이 원초적인 예측 모델을 여러분이 실제로 상호작용하는 유용한 어시스턴트로 변환합니다 — 각 단계는 행동에 흔적을 남깁니다.

1단계
사전 학습(Pretraining)

모델은 방대한 양의 텍스트를 읽고 한 가지를 학습합니다: 다음에 무엇이 올지 예측하는 것. 강력한 문서 완성기가 되지만 — 여러분을 돕는다는 개념이 없습니다.

2단계
파인튜닝(Fine-tuning)

인간의 선호도가 문서 완성기를 어시스턴트로 변환합니다 — 여러분의 입력을 요청으로 처리하고, 도움이 되는 답변을 하며, 해로운 요청은 거절하는 어시스턴트로.

이 문단을 개선하도록 도와주세요.
물론이죠! 논지를 강화하고 문장을 다듬기 위한 세 가지 구체적인 제안을 드립니다…

AI 어시스턴트는 두 단계로 만들어집니다. 사전 학습(Pretraining) 은 한 가지를 가르칩니다: 지금까지의 내용을 바탕으로 다음에 무엇이 올지 예측하는 것 — 방대한 데이터를 통해 수십억 번 반복됩니다. 그 결과는 여러분이나 도움의 개념이 전혀 없는 문서 완성기입니다. 원초적인 사전 학습 모델에게 "프랑스의 수도는 어디인가요?"라고 물으면 질문에 답하지 않습니다 — 통계적으로 다음에 올 법한 내용, 즉 더 많은 퀴즈 문항이나 지리 교과서의 한 단락을 이어서 생성할 것입니다. 파인튜닝(Fine-tuning) 은 두 번째 층입니다: 문서 완성기가 도움이 되는 행동의 엄선된 예시와 인간의 선호도로 형성된 보상 신호를 통해 다시 학습됩니다. 이것이 원초적인 예측 모델을 여러분이 실제로 상호작용하는 어시스턴트로 변환하는 과정입니다.

파인튜닝은 "좋은" 것이 무엇인지에 대한 인간의 판단에 의존하기 때문에, 그 판단의 특성이 모델의 성격에 흔적으로 나타납니다:

  • 아첨(Sycophancy) — 사람들은 동의하는 응답을 선호하기 때문에, 모델은 처음에 옳았더라도 여러분을 인정하고 가벼운 반박에 물러서는 것을 학습합니다.
  • 장황함(Verbosity) — 학습 중에 철저함이 더 높은 점수를 받기 때문에, 간결함이 더 도움이 될 때도 모델은 기본적으로 더 긴 답변을 제공합니다.
  • 과도한 신중함(Over-caution) — 보수적인 안전 학습으로 인해 모델이 실제로는 문제없는 요청에도 지나치게 조심하거나 거절할 수 있습니다.

이것들은 특정 모델의 버그가 아닙니다; 각 모델의 파인튜닝 방식에 따라 다르게 형성되어 모든 AI 모델에 나타나는 학습 흔적입니다. 이를 알면 주도권을 가질 수 있습니다: 어시스턴트가 반박하는 순간 굴복한다면, 그것은 아첨입니다 — 응답을 평가할 때 이를 감안하세요. 글머리 기호를 원하는데 에세이를 받는다면, 그것은 장황함 기본값입니다. 이러한 이음새를 발견하는 것이 AI를 잘 활용하는 방법의 일부입니다.

핵심 정리

  • 사전 학습(Pretraining) 은 방대한 데이터에서 "다음에 무엇이 올지" 예측함으로써 문서 완성기를 만들어 냅니다. 이 단계 이후에는 여러분을 돕는다는 개념이 없습니다.
  • 파인튜닝(Fine-tuning) 은 그 위에 어시스턴트 행동을 추가합니다: 여러분의 입력을 요청으로 처리하고, 횡설수설하는 대신 답변하며, 해로운 요청은 거절합니다.
  • 파인튜닝은 좋은 응답에 대한 인간의 판단을 사용하며 , 그 판단들은 흔적을 남깁니다: 아첨으로 끌리는 경향, 장황함으로의 기본값, 가끔의 과도한 신중함, 그리고 표명된 확신과 실제 신뢰성 사이의 느슨한 보정.

연습 문제

연습: 내 작업에서 흔적 찾기

이유? 아첨, 장황함, 과도한 신중함, 느슨한 신뢰도 보정은 모든 AI 모델에서 나타납니다. 문제는 그것들이 실제로 중요한 작업에 영향을 미칠 때 알아볼 수 있느냐입니다.

레슨 1 목록에서 작업 하나를 선택하세요. 이전에 실제로 AI를 통해 처리해본 것으로, 좋은 결과물이 어떤 것인지 명확히 알고 있는 작업이어야 합니다. 약간의 변형을 주며 세 번 실행하고 무엇이 달라지는지 관찰하세요.

  1. 실행 1: 평범하게. 평소대로 작업을 프롬프트하세요. 결과물을 저장하세요.
  2. 실행 2: 아첨 테스트. 같은 작업을 실행하되, 이번에는 잘못된 가정을 앞에 붙이세요. 예를 들어, 전략에 대한 피드백을 구한다면 "이 전략은 완벽하다고 생각해요"로 시작하세요. AI가 여러분의 프레임을 인정하는지 아니면 반박하는지 확인하세요. 그런 다음 명시적인 초대와 함께 다시 시도하세요: "제가 틀렸다고 생각하면 진심으로 반대 의견을 말해 주세요." 두 응답을 비교하세요.
  3. 실행 3: 장황함 테스트. 작업과 관련하여 한 문장으로 답할 수 있는 질문을 AI에게 물어보세요. 얼마나 많이 받는지 메모하세요. 그런 다음 "한 문장으로 답해 주세요"라고 다시 물어보세요. 길이를 비교하세요. 두 응답의 차이가 장황함 기본값이 작동하는 것입니다.
  4. 선택 사항: 신중함 테스트. 여러분의 분야에 회색 지대가 있다면(대부분 있습니다), 괜찮을 것 같은 경계선에 있는 것을 물어보세요: 약물 상호작용, 법적 미묘함, 약간 비전통적인 창의적 요청. 조심하는 정도가 실제 위험에 비례하는지, 아니면 반사적인지 메모하세요.

이제 한 발 물러서 보세요. 여러분의 작업에서 어떤 흔적이 가장 명확하게 나타났나요? 미리 이름을 붙였더니 그 행동을 읽는 방식이 달라졌나요?

레슨 되돌아보기

  • 여러분의 작업에서 아첨이 가장 큰 손해를 끼칠 가능성이 높은 곳은 어디인가요? (힌트: 솔직한 피드백을 원하는 모든 곳.)
  • 장황함이 가장 큰 손해를 끼칠 가능성이 높은 곳은 어디인가요? (힌트: 시간 압박 속에서 간결함이 필요한 모든 곳.)

다음 내용

이제 네 가지 속성 자체를 시작합니다. 다른 어떤 것보다 AI 행동을 더 잘 설명하는 것부터 시작합니다: 다음 토큰 예측(Next Token Prediction). AI의 답변은 실제로 어디서 오는 것일까요?

피드백

강의를 진행하면서 강의의 개념을 어떻게 업무에 활용하고 있는지, 그리고 피드백이 있으시면 알려주세요. 피드백은 여기 에서 공유해 주세요.

감사의 말 및 라이선스

Copyright 2026 Anthropic. Rick Dakan 교수(Ringling College of Art and Design)와 Joseph Feller 교수(University College Cork)가 개발한 AI Fluency Framework를 기반으로 한 원저작물. CC BY-NC-SA 4.0 라이선스로 배포됩니다.